home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group98a.txt / 000136_icon-group-sender _Mon Mar 16 08:02:35 1998.msg < prev    next >
Internet Message Format  |  2000-09-20  |  4KB

  1. Return-Path: <icon-group-sender>
  2. Received: from kingfisher.CS.Arizona.EDU (kingfisher.CS.Arizona.EDU [192.12.69.239])
  3.     by baskerville.CS.Arizona.EDU (8.8.7/8.8.7) with SMTP id IAA19541
  4.     for <icon-group-addresses@baskerville.CS.Arizona.EDU>; Mon, 16 Mar 1998 08:02:35 -0700 (MST)
  5. Received: by kingfisher.CS.Arizona.EDU (5.65v4.0/1.1.8.2/08Nov94-0446PM)
  6.     id AA17496; Mon, 16 Mar 1998 08:02:34 -0700
  7. From: gep2@computek.net
  8. Date: Fri, 13 Mar 1998 21:54:29 -0600
  9. Message-Id: <199803140354.VAA03466@axp.cmpu.net>
  10. Mime-Version: 1.0
  11. Content-Type: text/plain
  12. Content-Transfer-Encoding: 7bit
  13. Subject: Re: Letter Probabilities
  14. To: icon-group@optima.CS.Arizona.EDU
  15. X-Mailer: SPRY Mail Version: 04.00.06.17
  16. Errors-To: icon-group-errors@optima.CS.Arizona.EDU
  17. Status: RO
  18. Content-Length: 3512
  19.  
  20. > Several people have simultaneously suggested the generator string idea. 
  21.  
  22. This is hardly surprising.  :-)
  23.  
  24. > The probability table is simply a requirement for output.  As long as
  25. I'm going to compute it anyway, it's useful.  
  26.  
  27. Fine, but that doesn't mean you have to use it for generating your random text.
  28.  
  29. > In English, the space character is always first, followed by lower case
  30. 'e' with probability about 0.10.  Some results are counterintuitive,
  31. such as 'y' happening 50% more often than 'b' in the sample below
  32. (computed from a small portion of "Moby Dick").
  33.  
  34. Yeah, I think several things about your table are quite suspect.  Perhaps you 
  35. ought to use a more modern text for computing your probabilities.
  36.  
  37. > I have only been at Icon for a few weeks and think I have a firm grasp
  38. of it.  
  39.  
  40. I think that sounds like an "oxymoron" to me.  I don't think you'll REALLY grasp 
  41. it in just a few weeks, frankly.
  42.  
  43. > Whether it is ideal for this problem or not, I would like to know
  44. whether Icon has some elegant mechanism for scanning such an ordered
  45. list.
  46.  
  47. I think that elegance comes from solving a given problem in the most effective, 
  48. efficient, and simple way... not by making an elegant coding of an undesirable 
  49. algorithm.
  50.  
  51. >[letter frequencies]
  52. " "<--->0.1751922190691018
  53. "e"<--->0.09672803124014646
  54. "t"<--->0.07254602343010987
  55. "o"<--->0.06209221664362462
  56. "a"<--->0.06182541415023404
  57. "s"<--->0.05256009119794318
  58. "n"<--->0.05175968371777146
  59. "i"<--->0.0484610347085789
  60. "h"<--->0.04632661476145431
  61. "r"<--->0.04501685706662785
  62. "l"<--->0.0317980062577312
  63. "d"<--->0.03043973901865191
  64. "u"<--->0.02127143515486672
  65. "m"<--->0.01979189405515535
  66. "g"<--->0.01763321933590433
  67. "c"<--->0.01717237866550243
  68. "f"<--->0.01707535957699677
  69. "w"<--->0.01554730893303257
  70. "y"<--->0.01554730893303257
  71. "p"<--->0.0151349778068835
  72. ","<--->0.0151349778068835
  73. "\n"<--->0.010089985204589
  74. "b"<--->0.009968711343956922
  75. "v"<--->0.007397705498556839
  76. "."<--->0.006306240752868125
  77. "-"<--->0.00616071212010963
  78. "k"<--->0.005821145310339808
  79. "I"<--->0.004826699653156758
  80. ";"<--->0.001843362681607606
  81. "T"<--->0.001503795871837784
  82. "?"<--->0.00140677678333212
  83. "B"<--->0.001309757694826457
  84. "W"<--->0.001309757694826457
  85. "S"<--->0.001091464745688714
  86. "N"<--->0.001042955201435882
  87. "A"<--->0.0009701908850566347
  88. "C"<--->0.000921681340803803
  89. "x"<--->0.0008974265686773871
  90. "z"<--->0.0008246622522981394
  91. "j"<--->0.0007033883916660602
  92. "q"<--->0.0006548788474132285
  93. "!"<--->0.0006306240752868126
  94. "P"<--->0.0006306240752868126
  95. "'"<--->0.0006063693031603967
  96. "H"<--->0.0005093502146547332
  97. "F"<--->0.0004850954425283173
  98. "L"<--->0.0004365858982754856
  99. "M"<--->0.0004123311261490697
  100. "D"<--->0.000363821581896238
  101. "E"<--->0.0003395668097698222
  102. "G"<--->0.0003153120376434063
  103. "R"<--->0.0002910572655169904
  104. "Y"<--->0.0001940381770113269
  105. "O"<--->0.0001455286327584952
  106. ")"<--->9.701908850566347e-5
  107. ":"<--->9.701908850566347e-5
  108. "("<--->9.701908850566347e-5
  109. "J"<--->9.701908850566347e-5
  110. "V"<--->4.850954425283173e-5
  111. "U"<--->4.850954425283173e-5
  112. "Q"<--->4.850954425283173e-5
  113.  
  114. To start with, I'll comment that it's ludicrous to present such "probabilities" 
  115. to 16 significant digits... at least half (probably two-thirds or more) of those 
  116. digits are totally, absolutely meaningless.
  117.  
  118. I will comment however that it's probable that I could, given your table, even 
  119. tell you with pretty good certainty which about 20K piece of Moby Dick you 
  120. started with.  :-)
  121.  
  122. Gordon Peterson
  123. http://www.computek.net/public/gep2/
  124. Support the Anti-SPAM Amendment!  Join at http://www.cauce.org/
  125.  
  126.